資料視覺化 Data visualization

Matplotlib 官方文件: https://matplotlib.org/
Seaborn 官方文件: https://seaborn.pydata.org/
以上兩個是在進行資料視覺化時,常使用的兩個套件,Matplotlib的自由度高,Seaborn呈現方式多元成熟,兩者能夠互相搭配使用


一、Matplotlib

1. 載入套件

2. 載入資料

這是份包含不同類別鋼鐵的資料,包含長度、亮度、面積等資訊
鋼鐵的類別為: Pastry, Z_Scratch, K_Scatch, Stains, Dirtiness, Bumps, Other_Faults等,我們希望了解各種鋼鐵類別間,是否有因為不同的屬性差異而造成不同的分類結果,或者是屬性間的相關性,因此可以透過資料視覺化來先進行初步的了解

3. 資料預處理

此處進行簡單的資料預處理,主要是將資料從 dummy variable 換成分類,並且移除一些不需要的欄位

4. 繪圖

本次會介紹 matplotlib 當中的五種圖形的使用與語法,並且以上述鋼鐵資料集來做為範例

  1. 直方圖:plt.hist(x)
  2. 長條圖:plt.bar(x, y)
  3. 散佈圖:plt.scatter(x, y)
  4. 盒狀圖:plt.boxplot(x, y)
  5. 折線圖:plt.plot(x, y)

直方圖

官方文件用法

plt.hist(x, bins=None, range=None, density=None, cumulative=False, histtype='bar', align='mid', orientation='vertical', rwidth=None, color=None, label=None, stacked=False)

疊加兩種直方圖

長條圖

散佈圖

盒鬚圖

折線圖

二、 Seaborn

直方圖

長條圖

散佈圖

盒狀圖

小提琴圖

Pair plot